查看原文
其他

星河案例 | 工商银行基于联邦学习技术的电信反欺诈服务实践





2022 年大数据“星河”案例征集活动由中国信息通信研究院、中国通信标准化协会大数据技术标准推进委员会(CCSA TC601)共同组织,旨在促进大数据技术产品及相关产业发展,加快培育数据要素市场、充分发挥数据作为生产要素的独特价值,树立行业标杆榜样力量。12月28日,在2022可信隐私计算峰会上为入选案例颁发了证书。


为促进隐私计算行业内积极交流与经验共享,进一步推动隐私计算落地应用,隐私计算联盟在公众号内开设“星河案例”版块,将与入选案例的企业合作,持续为大家介绍隐私计算应用实践,分享成果经验,挖掘创新亮点。


由中国工商银行牵头,联合中国电信、蓝象智联申报的“基于联邦学习技术的电信反欺诈服务”案例荣获2022大数据“星河”案例隐私计算优秀案例。


以下为案例分享:


PART01
背景


随着互联网、通信技术的发展,一些不法之徒利用现代通讯技术和网络等方式不断翻新诈骗手段,电信网络诈骗愈加呈现出手段高科技化、形式多样化、过程迅速化、作案隐蔽化的特点,防范打击电信诈骗工作形式依然严峻。


人工智能时代兴起,数据资源成为维持相关产业原料,能否获取海量数据成为提升电信反欺诈效果的重要因素。随着数据安全隐私问题突出,国家管控越来越严格,先后发布《网络安全法》等法律法规。在社会层面上用户对个人隐私也越发重视,以往通过api获取数据模式在未来可能会受到极大限制。实际应用的数据中,很多外部数据可以了解黑产账户情况。然而,银行和很多拥有数据的公司双方都有严格的数据安全保护要求, IEEE、中国人民银行、中国信通院分别对行业应用制定了标准和规范。


如何在保护隐私和安全前提下,实现数据连通越来越受重视。隐私计算中联邦学习技术可以使得银行数据与外部数据进行有效融合并展开联合建模,这种方式在保证了各方数据安全的情况下,实现了各方数据的融合交互与建模应用。

PART02
解决方案


本方案是基于工行联邦学习平台,利用隐私计算技术在保护数据前提下,通过“数据可用不可见”的方式,为银行在安全隐私及合规的前提下引入运营商数据,实现银行运营商联合建模极大提升银行电信反欺诈的效果和效率。同时,通过工行联邦学习平台提供数据监管能力实现对相关数据和行为做到有效监管和溯源审计。


通过联合工行电信数据构建电信反欺诈模型,该模型提前预测识别风险账户,为银行对风险账户提前管控提供模型依据,进一步减少银行客户的资产损失。同时,在数据流通生命周期内,工商银行提供的联邦学习平台,确保数据提供方和银行的原始数据不出本地库,所有模型计算在本地计算节点进行,加密计算因子在授权认证的计算节点之间传输,从而实现“数据可用不可见”、“数据不动模型动”,计算模型结果输出。同时,数据在使用过程中通过数据授权管理、用法用量定向授权等功能保证数据不会被第三方二次使用。

PART03
技术实现


案例分析发现,诈骗分子的异常行为在运营商侧更为提前(如更换手机设备、异地联网等),行亟需打破数据孤岛,获取运营商相关风险行为信息,帮助行提前发现风险事件。因此工商银行与中国电信展开了合作,引入电信侧通话、短信、流量等数据,共同开展在手机银行登录场景反欺诈模型的联邦学习建模和应用。


本项目采用联邦学习技术完成联合建模,保证数据安全。工行、电信原始数据都保存在本地,原始数据不出库。用隐私求交技术获取双方共有客户,但双方用户列表互不暴露。使用同态加密技术交互梯度更新模型,工行数据模型参数保存在工行,电信数据模型参数保存在电信,工行、电信模型参数汇总即为最终模型。其中技术路线图如下图所示。


技术方案建模示意图


具体建模方案为:


(一)特征工程

使用工行联邦学习平台工具箱完成分箱、WOE值、IV值计算等,过程中平台工具保证数据隐私不泄露。


(二)隐私样本对齐

完成数据特征基于双方ID的对齐。过程保证双方交集外样本ID不泄露。本项目使用PSI(隐私集合求交)技术实现样本对齐。PSI的主要目标是在不泄露非双方共同客户的前提下,完成双方共有客户的筛选工作。


在样本对齐后,工行和电信获取本次建模的用户手机号交集,并在隐私技术平台计算节点环境内进行双方原始数据不出库的前提下的数据探查及特征衍生。


纵向联邦学习样本对齐示意图


(三)隐私数据探查

使用联邦学习平台探查双方对齐样本的数据分析结果,包括:


1) 双方的样本量,正负样本分布分析;

2) 特征分布分析,包括最大值,最小值,均值,和不同分位数;

3) 双方特征交叉分析,包含工行,电信特征在此业务场景的IV值,WOE分箱结果,特征相关性Correlation,VIF;

通过联邦学习平台的隐私数据探查技术,我们在不暴露业务需求方(工行)的业务标签,和数据协作方(电信)的变量取值、分箱、分布等的前提下,得到了建模相关的统计学特征。考虑目前双方提供的变量较多,我们还对隐私数据探查后的特征,基于其IV值、相关性等指标进行了筛选、分析和处理。


(四)数据预处理

本案例进行了特征缺失值填充、特征编码等数据预处理步骤。其中,在特征编码步骤中,为确保样本的WOE值不被泄露给任何一方,我们在转化过程中以秘密分享的方式存储在两方。


(五)联邦学习建模

本项目使用纵向联邦学习XGBoost模型使用双方特征和工行标签,共同训练模型,在整个训练过程中,各自的数据和参数互不交换,建模完成后模型分布式存储。


(六)模型评估及使用

电信诈骗需要全方位的数据,光凭运营商或者银行单方数据无法做到全方位的描绘电信诈骗的特征。将两者数据结合起来并保证各方数据隐私安全的情况下对电信诈骗进行预测,并达到了目前已知的最好效果。


技术方案推理示意图


对于测试样本,我们使用联邦学习模型完成测试样本模型预测,输出各样本的预警概率,并评估其KS,AUC值相对于仅使用单方数据,是否有提升并达到满足工行业务场景需求的目标。


验证场景:对登录场景进行了验证,通过登录手机银行行为构建特征。引入电信数据,并以手机银行登录使用的手机号对齐建立联邦模型。


模型1:仅使用工行特征,对双方对齐的样本建模,由工行完成。

模型2:使用工行和电信特征,对双方对齐的样本进行纵向联邦学习建模,由工行、电信共同完成。


模型1和模型2,均使用相同的训练集和测试集,并选取同样的模型超参,后者相比前者,预测效果有显著提升。

PART04
成效及价值


(一)提升风控水平


首先,本场景提高了银行风控工作的准确性和智能化水平,使反欺诈从“被动防”走向“主动控”,有效助力国务院“断卡行动”的开展。银行将自身拥有客户手机银行各类交易信息、登录信息等数据,通过联邦学习方式与运营商数据进行联合建模,结合运营商通话类、短信类、流量类、机主信息等,补足了银行自有的客户风险特征,更加准确的识别风险事件。同时,“断卡行动”以来,公安部反诈中心一直致力于实现涉案前的风险识别与管控,做到真正阻止诈骗的发生。但银行侧受限于自身的数据对诈骗者与受害人的行外的风险行为知之甚少,涉案前模型一直无法落地,但引入运营商侧数据后,不仅实现了完整涉案链路的还原,也加强了对客户行外风险行为的了解,真正实现了涉案前风险账户的精准识别,助力银行实现了主动风险防控。截止2022年9月,工商银行涉案账户数量同业排名压降至四大行最低,取得了国务院“断卡行动”以来的最好成绩。


(二)促进生态发展


其次,本场景为金融行业的反欺诈构筑了新的体系和生态,有利于促进数据生态的良性发展。利用联邦学习平台,工行联合电信构建反欺诈模型,在保障数据安全的前提下实现数据的流通和数据价值的挖掘,使得银行数据与外部数据得以实现合规、合法前提下的联合建模,首次实现了运营商、银行两大机构的数据联合应用、发挥价值。


PART05
展望


随着信息技术的不断提升,电信诈骗、网络诈骗等犯罪手段也愈加狡猾,商业银行急需利用多方数据协同构建反欺诈风控体系,提升反欺诈能力,创造新的社会及经济价值。联邦学习等隐私计算技术作为当前的技术新风口,为商业银行反欺诈创造了全新的生态,在未来,随着技术的成熟和制度的隐私保护等制度的完善,来自不同行业、企业的多方数据可以打通壁垒,实现数据的共享利用,提升社会整体的反欺诈能力。


往期推荐01

《隐私计算白皮书(2022年)》正式发布(附下载链接)

02

首届“星河杯”隐私计算大赛正式启动!

03

2022可信隐私计算峰会成功召开

继续滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存